Теперь лекарство можно предсказать без лабораторий — звучит одновременно опасно и вдохновляюще.
Компания SandboxAQ, созданная выходцами из Google и поддержанная NVIDIA, представила новый открытый набор данных. Он может значительно ускорить разработку лекарств на ранних стадиях. Речь идёт о базе SAIR (Structurally Augmented IC50 Repository), которая включает более 5,2 миллиона пар «молекула — белок». Эти пары представлены в виде синтетически созданных трёхмерных структур с привязкой к реальным данным об эффективности взаимодействия.
Проект направлен на преодоление одного из самых трудоёмких этапов в фармакологии: выяснение, свяжется ли конкретное соединение с нужным белком и окажет ли необходимое биологическое воздействие. Этот этап предшествует клиническим испытаниям и может стоить очень дорого.
Традиционно процесс включает получение трёхмерной структуры белка, моделирование или лабораторное тестирование тысяч потенциальных лекарств. Для каждого соединения нужно уточнить его пространственное положение и оценить биохимическую активность. Это требует времени, вычислительных мощностей и множества повторяющихся операций.
Новый набор от SandboxAQ предлагает решение. С помощью моделей для свёртывания молекул и вычислительных ресурсов NVIDIA была создана библиотека синтетических структур. Эти структуры не наблюдались напрямую в лабораториях, а были рассчитаны на основе данных из открытых источников, таких как ChEMBL и BindingDB. Для каждой пары белок — молекула с известной активностью разработчики создали до пяти различных трёхмерных поз и выбрали наиболее достоверные.
Каждая структура связана с конкретными значениями активности (IC50). Это позволяет не только предсказать, как молекула взаимодействует с белком, но и оценить её эффективность. Такой подход ускоряет этап отбора кандидатов.
Эти инструменты критически важны для обучения новых "нейросетей-генетиков", таких как AlphaFold 3 и Boltz-2. Современные ИИ уже значительно продвинулись в изучении структуры белков, но всё ещё испытывают трудности с новыми соединениями и нестандартными белками. SAIR предлагает решение, предоставляя больше разнообразных данных без необходимости обращаться к закрытым базам данных фармгигантов.
Компания заявила, что SAIR будет доступен всем исследователям бесплатно. Однако доступ к продвинутым моделям, обученным на этой базе, будет платным. Это позволит учёным и фармкомпаниям проверять эффективность новых лекарств мгновенно и без физического синтеза, экономя время и деньги.